Разработчики: | Яндекс (Yandex), Яндекс.Облако (Yandex.Cloud) |
Дата последнего релиза: | 2023/12/19 |
Отрасли: | Интернет-сервисы |
Технологии: | SaaS - Программное обеспечение как услуга, ИБ - Биометрическая идентификация, Речевые технологии |
Содержание |
Основная статья: Голосовая биометрия
2023
Представление 8 дополнительных голосов
19 декабря 2023 года облачная платформа Yandex Cloud представила 8 новых голосов с разными эмоциями в сервисе Yandex SpeechKit. Теперь компании смогут использовать в синтезе речи приветливую, строгую интонации или даже шепот. Это позволит компаниям-разработчикам менять окраску синтеза речи в зависимости от бизнес-сценария и повышать удовлетворенность клиентов и конверсию в голосовых каналах. Кроме этого, в сервисе появился параметр, который позволяет изменять высоту голоса.
Компании смогут выбирать оптимальный голос под бизнес-сценарий. Например, для опроса удовлетворенности использовать приветливую речь, а для сбора обратной связи о качестве услуг после жалобы клиента выбрать сопереживающую, серьезную интонацию голоса. По данным исследования разработчика голосовых роботов Tomoru, разные типы голосов влияют на конверсию продаж и на восприятие речевых коммуникаций клиентами. Так, женский голос лучше всего работает в рекрутинге — 68% конверсий, а мужской чаще используют в онлайн-образовании — 53% конверсий.
Разнообразие голосов в Yandex SpeechKit позволило сделать диалоги роботов менее шаблонными, нативными. При создании новых голосов разработчики Yandex SpeechKit изменили не только работу модели машинного обучения, но и текстовую базу, которую использовали дикторы. Это позволило улучшить звучание голосов в вопросительных и восклицательных предложениях, которые являются сложной задачей для синтеза речи.
![]() | Синтез речи — это популярная технология для автоматизации коммуникаций в контакт-центрах и не только. Нам, как разработчикам, важно в том числе, чтобы диалоги с голосовыми роботами были человечными и комфортными для обычных людей. В будущем мы планируем предоставлять пользователям еще больше новых голосов, - рассказал Григорий Атрепьев, CPO облачной платформы Yandex Cloud. | ![]() |
Распознавание речи на узбекском языке
15 июня 2023 года компания Yandex Cloud сообщила о разработке нейросети, которая может распознавать речь и воспроизводить ее на узбекском языке. Компании как в России, так и в Узбекистане уже могут использовать дополнительный язык в сервисе Yandex SpeechKit для создания голосовых помощников, автоматизации колл-центров и речевой аналитики.
Модели синтеза речи обучались на предзаписи голоса реального диктора. При этом они умеют синтезировать речь не только из текста, но и из его фонемной записи, в которой указаны все особенности звуков в словах. Это позволит клиентам корректировать в синтезе произношение отдельных слов - сложные фамилии, названия товаров, заимствованные выражения. Для этого им нужно будет указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса. Российский рынок ITSM: драйверы и тренды, крупнейшие игроки. Обзор TAdviser
Так же как и для синтеза речи, для распознавания нейросети учатся на примерах. Чтобы их обучить, специалисты Yandex Cloud собрали датасет с тысячами часов аудио и их расшифровками, в том числе короткие и длинные фразы, а также имена, адреса, даты и числа.
Нейросети для синтеза и распознавания узбекского работают с латинским алфавитом, который используется в Узбекистане уже больше 20 лет. При этом алгоритмам пришлось выучить и некоторые звуковые особенности букв. Например, буква «X» обозначает в алфавите твердый [х], а в иностранных словах может произноситься как [кс].
![]() | В Узбекистане активно развиваются сценарии, связанные с искусственным интеллектом, в частности с речевыми технологиями. По оценке одного из наших партнеров, объем рынка речевых технологий в Узбекистане может достигать до 395 миллионов минут обработанной речи в год. Появление шестнадцатого языка в Yandex SpeechKit - большой шаг для создания диалоговых сценариев как для узбекских, так и для российских компаний, - рассказал Григорий Атрепьев, директор по продуктам в Yandex Cloud. | ![]() |
Модели доступны на сайте и настраиваются стандартными средствами в API. Синтез и распознавание узбекского языка с помощью Yandex SpeechKit уже начал использовать ряд компаний.
2022
Интеграция с Just AI Conversational Platform
20 сентября 2022 года компания Just AI сообщила об интеграции с Yandex Cloud решений для запуска голосовых AI-проектов в контуре заказчика. Теперь пользователи сервиса для распознавания и синтеза речи Yandex SpeechKit смогут разворачивать полномасштабные голосовые AI-проекты не только в облаке, но и в собственном контуре. Подробнее здесь.
Добавление возможности автоматической расстановки знаков препинания
В Yandex SpeechKit (сервисе для синтеза и распознавания речи) появилась возможность при переводе голоса в текст автоматически расставить знаки препинания. Распознанный нейросетью текст максимально приближен к литературному и проще воспринимается читателем. Об этом компания Яндекс сообщила 20 апреля 2022 года.
Это улучшит опыт пользователей в сценариях, где с речевыми технологиями напрямую взаимодействует человек. Например, общение с голосовым помощником, автоматическое транскрибирование или формирование субтитров.
Пунктуатор разработан с помощью двух последовательно работающих моделей машинного обучения. Первая переводит голос в текст, вторая расставляет знаки препинания в соответствии с нормами русского языка. На апрель 2022 года модель расставляет все основные знаки пунктуации русского языка.
2020: Yandex SpeechKit Pro
23 сентября 2020 года компания платформа Yandex.Cloud представила специализацию сервиса SpeechKit — Yandex SpeechKit Pro. Это программа для компаний-разработчиков, участники которой получат доступ к новым инструментам для создания роботов и голосовых помощников, ориентированных на работу в конкретной отрасли или компании. Такие роботы смогут распознавать слова и команды на определенную тему с максимальным уровнем точности, утверждают в Yandex.Cloud. Новые инструменты помогут оптимизировать сценарии обслуживания в банке, в медицине или в доставке. Также SpeechKit Pro позволяет создавать индивидуальные черты голосового робота: интонации и манеру общения.
К 2020 году синтез и распознавание речи стали самым востребованным ML-сервисом на платформе Yandex.Cloud. По данным разработчиков, с начала года объем потребления SpeechKit вырос на 120%. Количество активных проектов превысило 500. В России уже сформировалась экосистема разработчиков и интеграторов решений, которые по заказу компаний из различных сфер создают и внедряют голосовых роботов для помощи в обработке входящих и исходящих звонков, системы голосового управления в приложениях и терминалах обслуживания клиентов, решения по анализу эффективности бизнес-коммуникаций. На сентябрь это более 20 компаний, большинство из которых — постоянные партнеры платформы Yandex.Cloud. По данным партнеров, за последние два года основными мотивами внедрения голосовых роботов в российских компаниях стали сокращение затрат и быстрое масштабирование решений.
![]() | «Вместе с нашими партнерами мы прошли большой путь, за два года сделав Речевые технологии из экзотического сервиса прикладным инструментом бизнеса. Теперь мы делаем следующий шаг и открываем следующий уровень речевых технологий Яндекса для партнеров. Компании-разработчики получат доступ к расширенным возможностям SpeechKit, а заказчики решений смогут выбрать поставщика с наиболее подходящей экспертизой», — прокомментировал Алексей Башкеев, руководитель платформы Yandex.Cloud. | ![]() |
Вместе с интересом бизнеса к возможностям речевых технологий, выросли и требования к точности распознавания в конкретных сценариях взаимодействия голосовых роботов и человека, возможности быстро адаптировать разработки под новые задачи. Например, для компании из сферы доставки принципиально важно, чтобы робот не путался в оценке значений фраз «перенесите заказ» или «занесите заказ», а для телекоммуникационных компаний — чтобы без ошибок отличал фразы «включить услугу» и «отключить услугу». Приоритет бизнеса — точность именно в его сфере, возможность развивать опыт применения в конкретном бизнес-сценарии на основе объективных показателей.
Для решения этих задач Yandex.Cloud предоставляет патнерам дополнительные инструменты разработки в рамках специализации SpeechKit Pro. Теперь компании-партнеры смогут пользоваться разметкой аудиоданных, обучать индивидуальные модели распознавания речи на данных заказчиков, контролировать метрики качества распознавания речи и адаптировать модели распознавания к конкретному потоку данных.
Специализацию SpeechKit Pro уже получили компании Neuro.net, Just.ai, Авиационные технологии связи, Naumen, Robovoice и Voximplant.
2019: Включение в состав IP АТС Standalone от MCN Telecom
29 июля 2019 года компания MCN Telecom сообщила, что добавила сервис Yandex SpeechKit от Яндекса.Облако в IP АТС Standalone, благодаря чему появилась возможность предоставлять крупным клиентам продукт Голосовой помощник на русском языке. Данный функционал может пригодится банкам, финансовым организациям, интернет-магазинам – компаниям, которые применяют в продажах искусственный интеллект (AI) и пр. Подробнее здесь.
2014: Анонс SpeechKit Cloud
4 августа 2014 года компания Яндекс представила SpeechKit Cloud — облачный сервис распознавания речи. С его помощью разработчики могут научить свои продукты понимать голос человека.
Компания сообщила, поддержку SpeechKit Cloud можно добавить в различные программы, сервисы и устройства: от компьютерной игры до автомобильной навигационной системы.
В основе SpeechKit Cloud технология распознавания речи Yandex SpeechKit, которую Яндекс запустил в 2013 году. На 4 августа 2014 года она используется в 400 мобильных приложениях для Android, iOS и Windows Phone.
SpeechKit Cloud "понимает" русский и турецкий языки. Обработка голосовых запросов производится на серверах Яндекса, рассчитанных на высокие нагрузки.
Инфраструктура сервиса спроектирована с учетом высоких нагрузок, чтобы обеспечить доступность и безотказную работу системы при большом количестве одновременных обращений.
Модель взаимодействия (2014)
Взаимодействие со SpeechKit Cloud реализуется через HTTP API. Без установки дополнительного ПО выполняются функции:
- голосовой ввод в компьютерных играх и приложениях;
- голосовое управление в салоне автомобиля — например, навигационной системой;
- интерактивное голосовое меню IVR в телефонии;
- голосовой интерфейс систем «Умный дом»;
- голосовой интерфейс электронных роботов;
- голосовое управление бытовой техникой и т.д.
Заказчик | Интегратор | Год | Проект |
---|---|---|---|
- Почта России | Авиационные Технологии Связи (АТС), Neovox, Неовокс (ранее New Contact, Ньюконтакт) | 2020.09 | ![]() |
- Райффайзенбанк (Raiffeisen Bank) | Райффайзенбанк (Raiffeisen Bank) | 2020.08 | ![]() |
- Ситилинк | Без привлечения консультанта или нет данных | 2019.04 | ![]() |
- МегаФон | Астерос, Яндекс (Yandex) | 2016.09 | ![]() |
Подрядчики-лидеры по количеству проектов
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение систем по количеству проектов, не включая партнерские решения
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Подрядчики-лидеры по количеству проектов
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Данные не найдены
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Данные не найдены
Распределение систем по количеству проектов, не включая партнерские решения
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)